電腦視覺與數位影像處理導論

電腦視覺是人工智慧的一個領域，使電腦能從數位影像和影片中提取有意義的資訊，有效地試圖彌補語意差距原始像素資料與人類層次理解之間的差距。數位影像處理作為電腦視覺的基礎層，專注於透過像素到像素的轉換來操縱和增強影像訊號，以準備資料進行更高層次的解釋性任務。

資料表示：在機器層級上，影像是一種數值張量而非整體性的圖像。灰度影像為強度值的二維矩陣，而彩色影像則是代表紅、綠、藍（RGB）通道的三維張量，其尺寸為 $H \times W \times 3$。
轉換與解讀的對比：數位影像處理主要關注影像到影像的操作，例如降噪、銳化或直方圖均勻化。電腦視覺則專注於影像到知識的操作，例如物件分類、定位與分割。
逆向圖形學原理：電腦視覺可被視為電腦圖形學的逆向。圖形學致力於從數學模型生成視覺世界，而視覺則致力於從二維投影中恢復三維結構與語意標籤。

核心挑戰

此領域的主要挑戰是語意差距，即機器處理的底層像素值與人類所感知的高階概念之間的斷裂。

Python 實作

問題 1

哪一種流程被歸類為影像到知識的操作？

數位影像處理

電腦視覺

電腦圖形學

直方圖均勻化

問題 2

在機器層級上，標準彩色影像的資料結構是什麼？

二維矩陣

一維陣列

三維張量 / RGB 通道

鏈結串列

案例研究：醫療診斷系統

閱讀以下情境並回答問題。

一家醫院正在開發一套新的自動化醫療診斷系統，旨在分析X光掃描以檢測潛在的骨頭骨折。該系統會處理來自X光機的原始感應器資料，並為放射科醫師產出診斷報告。

問題

1. 如果系統應用對比度增強以讓骨頭結構更清晰，這屬於數位影像處理（DIP）還是電腦視覺（CV）？

答案：
數位影像處理。對比度增強是一種影像到影像的轉換，可提升訊號的視覺品質，而不需提取語意意義。

問題

2. 如果系統自動將特定區域標示為可能的骨折，它執行的是什麼任務？

答案：
電腦視覺／物件偵測。系統正在解讀影像內容以提取高階知識（定位骨折）。

問題

3. 為何在執行偵測演算法前必須先進行雜訊降低？

答案：
為了提升訊號品質，並減少語意解讀階段的假陽性。雜訊可能被電腦視覺演算法誤解為實際特徵或邊緣。